Skip to main content

Level 2

25 Buổi ~ 50H

Link Syllabus: Xem chi tiết tại đây

Phần 1: Cơ bản về Machine Learning và tự động hóa công việc (Buổi 1 - 4)

Buổi 1: Giới thiệu khóa học và tổng quan về Machine Learning và Automation

  • Giới thiệu về ML, AI và các ứng dụng tự động hóa.
  • Các thuật ngữ cơ bản: supervised learning, unsupervised learning, reinforcement learning.
  • Các công cụ và framework sẽ được sử dụng trong khóa học.
  • Bài tập: Cài đặt các công cụ và thư viện cần thiết. Viết chương trình "Hello World" với Scikit-Learn, tạo mô hình đơn giản để dự đoán giá trị bằng hồi quy tuyến tính.

Buổi 2: Chuẩn bị dữ liệu cho Machine Learning

  • Quy trình làm sạch và tiền xử lý dữ liệu.
  • Giới thiệu Pandas, NumPy và các thư viện hỗ trợ.
  • Các kỹ thuật chuẩn hóa và xử lý dữ liệu bị mất.
  • Bài tập: Làm sạch và chuẩn hóa tập dữ liệu mẫu, loại bỏ dữ liệu bị thiếu và chuyển đổi kiểu dữ liệu. Tìm kiếm và xử lý các điểm ngoại lệ (outliers) trong dữ liệu.

Buổi 3: Feature Engineering và Feature Selection

  • Các kỹ thuật chọn lọc và xây dựng đặc trưng (feature engineering).
  • Sử dụng PCA (Principal Component Analysis) và các phương pháp giảm chiều dữ liệu.
  • Bài tập: Thực hành chọn đặc trưng quan trọng từ bộ dữ liệu thực tế. Sử dụng PCA để giảm chiều dữ liệu và giải thích kết quả.

Buổi 4: Pipeline trong Machine Learning

  • Tạo dựng pipeline để tự động hóa các bước chuẩn bị và huấn luyện mô hình.
  • Sử dụng Scikit-Learn Pipeline và thực hành với một số ví dụ.
  • Bài tập: Tạo pipeline đơn giản cho quy trình xử lý dữ liệu và huấn luyện mô hình với bộ dữ liệu mẫu. Kết hợp các bước chuẩn bị dữ liệu, chọn đặc trưng và huấn luyện mô hình trong pipeline.

Phần 2: Các thuật toán Machine Learning nâng cao (Buổi 5 - 10)

Buổi 5: Hồi quy tuyến tính và ứng dụng dự đoán giá cổ phiếu

  • Phân tích hồi quy tuyến tính và logistic với các ví dụ phức tạp.
  • Thực hành với các bài toán dự báo.
  • Bài tập: Áp dụng hồi quy tuyến tính để dự đoán giá nhà với bộ dữ liệu có nhiều biến. Tạo mô hình hồi quy logistic để phân loại khách hàng có khả năng mua hàng.

Buổi 6: Decision Trees và Random Forests nâng cao

  • Các thông số quan trọng của Decision Trees và Random Forests.
  • Áp dụng cho các bài toán phân loại và hồi quy trong tự động hóa.
  • Bài tập: Áp dụng Decision Tree để phân loại kiểu khách hàng. Sử dụng Random Forests để cải thiện độ chính xác và đánh giá kết quả.

Buổi 7: K-Nearest Neighbors (KNN) và Support Vector Machines (SVM)

  • KNN và SVM trong các bài toán phân loại và ứng dụng thực tế.
  • Tinh chỉnh các tham số và đánh giá mô hình.
  • Bài tập: Dự đoán phân loại khách hàng tiềm năng với KNN và so sánh kết quả với SVM.

Buổi 8: Clustering với K-Means và DBSCAN

  • Kỹ thuật clustering và phân cụm trong tự động hóa.
  • Ứng dụng phân cụm để phát hiện nhóm người dùng hay cụm công việc.
  • Bài tập: Phân cụm khách hàng dựa trên hành vi mua sắm bằng K-Means. So sánh với DBSCAN khi có các điểm nhiễu trong dữ liệu.

Buổi 9: Các thuật toán Ensemble Learning

  • Giới thiệu Boosting (XGBoost, AdaBoost) và Bagging.
  • Ứng dụng ensemble cho các bài toán phức tạp.
  • Bài tập: Sử dụng XGBoost để phân loại khách hàng dựa trên đặc trưng. Áp dụng Bagging với Random Forests cho bài toán dự đoán doanh thu.

Buổi 10: Giới thiệu về mạng nơ-ron nhân tạo (ANN)

  • Cấu trúc của ANN và các nguyên tắc hoạt động cơ bản.
  • Xây dựng mô hình ANN cơ bản với Keras hoặc TensorFlow.
  • Bài tập: Tạo mô hình ANN cơ bản để phân loại dữ liệu với TensorFlow/Keras.

Phần 3: Deep Learning và xử lý ngôn ngữ tự nhiên (NLP) (Buổi 11 - 16)

Buổi 11: Mạng nơ-ron tích chập (CNN)

  • Kiến thức cơ bản về CNN và ứng dụng cho xử lý ảnh.
  • Thực hành với bài toán tự động nhận diện hình ảnh.
  • Bài tập: Sử dụng CNN để nhận diện chữ số viết tay (MNIST dataset).

Buổi 12: Mạng nơ-ron hồi quy (RNN)

  • Giới thiệu về RNN, LSTM và GRU.
  • Ứng dụng RNN trong dự báo chuỗi thời gian.
  • Bài tập: Dự đoán giá cổ phiếu hoặc chuỗi thời gian bằng LSTM.

Buổi 13: Giới thiệu về Xử lý ngôn ngữ tự nhiên (NLP)

  • Các khái niệm cơ bản về NLP: tokenization, stemming, lemmatization.
  • Xây dựng pipeline NLP đơn giản để phân tích văn bản.
  • Bài tập: Xây dựng pipeline NLP cơ bản để phân loại văn bản.

Buổi 14: Embeddings và Word2Vec, GloVe

  • Cách tạo vector embedding từ văn bản.
  • Ứng dụng của embedding trong phân loại văn bản.
  • Bài tập: Sử dụng Word2Vec để tìm các từ tương tự trong bộ dữ liệu văn bản.

Buổi 15: Mô hình Transformer và BERT

  • Cấu trúc của Transformer, BERT, GPT và ứng dụng trong NLP.
  • Thực hành với mô hình BERT để phân loại văn bản tự động.
  • Bài tập: Dùng BERT để phân loại các đoạn văn bản thành các nhóm chủ đề.

Buổi 16: Chatbot và ứng dụng tự động hóa với NLP

  • Xây dựng chatbot đơn giản và ứng dụng trong tự động hóa công việc.
  • Triển khai chatbot với các mô hình NLP.
  • Bài tập: Xây dựng chatbot trả lời các câu hỏi đơn giản về sản phẩm và dịch vụ.

Phần 4: Tối ưu hóa và triển khai mô hình (Buổi 17 - 21)

Buổi 17: Hyperparameter Tuning

  • Grid Search, Random Search và Bayesian Optimization.
  • Tinh chỉnh tham số để cải thiện hiệu suất mô hình.
  • Bài tập: Tinh chỉnh tham số mô hình Random Forest với Grid Search và Random Search.

Buổi 18: Đánh giá và so sánh mô hình

  • Các phương pháp đánh giá mô hình: accuracy, precision, recall, F1-score.
  • Sử dụng k-fold cross-validation để đánh giá mô hình.
  • Bài tập: So sánh hiệu quả các mô hình phân loại với các metrics khác nhau.

Buổi 19: Kỹ thuật Regularization và xử lý overfitting

  • L2 và L1 Regularization, Dropout, Early Stopping.
  • Ứng dụng để giảm thiểu overfitting trong mô hình.
  • Bài tập: Áp dụng Regularization cho mô hình ANN để giảm thiểu overfitting.

Buổi 20: Triển khai mô hình Machine Learning

  • Các phương pháp triển khai mô hình: lưu mô hình, API, Flask và FastAPI.
  • Tạo API cho mô hình ML với Flask hoặc FastAPI.
  • Bài tập: Tạo REST API cho mô hình phân loại đơn giản với Flask.

Buổi 21: Giới thiệu về ML Ops và quản lý mô hình

  • ML Ops và các công cụ để quản lý mô hình (MLflow, DVC).
  • Lưu trữ, quản lý và cập nhật mô hình trong môi trường thực tế.
  • Bài tập: Lưu trữ và theo dõi các phiên bản của mô hình với MLflow.

Phần 5: Ứng dụng thực tế và dự án cuối khóa (Buổi 22 - 25)

Buổi 22: Tự động hóa tác vụ quản lý dữ liệu

  • Ứng dụng ML vào tự động hóa công việc xử lý và quản lý dữ liệu.
  • Thực hành tạo pipeline tự động hóa việc làm sạch và chuẩn bị dữ liệu.
  • Bài tập: Viết script tự động làm sạch và chuẩn bị dữ liệu theo lịch trình.

Buổi 23: Dự án thực tế 1 - Tự động hóa phân loại email

  • Xây dựng mô hình phân loại email (spam/không spam) và triển khai.
  • Triển khai ứng dụng nhỏ để tự động phân loại email.
  • Bài tập: Tạo mô hình và tích hợp vào ứng dụng phân loại email tự động.

Buổi 24: Dự án thực tế 2 - Dự đoán nhu cầu và tồn kho sản phẩm

  • Xây dựng mô hình dự báo tồn kho dựa trên dữ liệu quá khứ.
  • Triển khai mô hình để tự động dự đoán nhu cầu sản phẩm.
  • Bài tập: Xây dựng và triển khai mô hình dự báo tồn kho dựa trên dữ liệu lịch sử.

Buổi 25: Tổng kết và trình bày dự án cuối khóa

  • Học viên trình bày và thảo luận các dự án cuối khóa.
  • Tổng kết khóa học và định hướng tiếp theo cho học viên.
  • Bài tập: Chuẩn bị và thực hiện trình bày, giải thích các phương pháp đã sử dụng.